<html>
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1, maximum-scale=1, user-scalable=no" name="viewport"/>
  <title>
   Editor: 微博名人那些事儿  | 数螺 | NAUT IDEA
  </title>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap-theme.min.css" rel="stylesheet"/>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap.min.css" rel="stylesheet"/>
  <style type="text/css">
   #xmain img {
                  max-width: 100%;
                  display: block;
                  margin-top: 10px;
                  margin-bottom: 10px;
                }

                #xmain p {
                    line-height:150%;
                    font-size: 16px;
                    margin-top: 20px;
                }

                #xmain h2 {
                    font-size: 24px;
                }

                #xmain h3 {
                    font-size: 20px;
                }

                #xmain h4 {
                    font-size: 18px;
                }


                .header {
	           background-color: #0099ff;
	           color: #ffffff;
	           margin-bottom: 20px;
	        }

	        .header p {
                  margin: 0px;
                  padding: 10px 0;
                  display: inline-block;  
                  vertical-align: middle;
                  font-size: 16px;
               }

               .header a {
                 color: white;
               }

              .header img {
                 height: 25px;
              }
  </style>
  <script src="http://cdn.bootcss.com/jquery/3.0.0/jquery.min.js">
  </script>
  <script src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML" type="text/javascript">
   MathJax.Hub.Config({
          tex2jax: {inlineMath: [['$','$'], ['\\(','\\)']]},
          TeX: {equationNumbers: {autoNumber: "AMS"}}
        });
  </script>
  <script src="http://nautstatic-10007657.file.myqcloud.com/static/css/readability.min.js" type="text/javascript">
  </script>
  <script type="text/javascript">
   $(document).ready(function() {
                 var loc = document.location;
                 var uri = {
                  spec: "http://cos.name/2013/08/something_about_weibo/",
                  host: "http://cos.name",
                  prePath: "http://cos.name",
                  scheme: "http",
                  pathBase: "http://cos.name/"
                 };
    
                 var documentClone = document.cloneNode(true);
                 var article = new Readability(uri, documentClone).parse();
     
                 document.getElementById("xmain").innerHTML = article.content;
                });
  </script>
  <!-- 1466437279: Accept with keywords: (title(0.142857142857):门户网站,统计学,服务平台,中国,博,事儿,名人, topn(0.366666666667):人们,短文,信息,统计学,R语言,数据挖掘,聚类分析,词频,文章,汉语,数目,用人,中文,函数,效果,老师,论坛,会议,噪音,编辑部,可视化,事儿,名人,词汇,数据,代码,单位,评论,聚类,文本).-->
 </head>
 <body class="single single-post postid-8197 single-format-standard sidebar" onload="">
  <div class="header">
   <div class="container">
    <div class="row">
     <div class="col-xs-6 col-sm-6 text-left">
      <a href="/databee">
       <img src="http://nautidea-10007657.cos.myqcloud.com/logo_white.png"/>
      </a>
      <a href="/databee">
       <p>
        数螺
       </p>
      </a>
     </div>
     <div class="hidden-xs col-sm-6 text-right">
      <p>
       致力于数据科学的推广和知识传播
      </p>
     </div>
    </div>
   </div>
  </div>
  <div class="container text-center">
   <h1>
    Editor: 微博名人那些事儿
   </h1>
  </div>
  <div class="container" id="xmain">
   <div class="hfeed site" id="page">
    <header class="site-header" id="masthead" role="banner">
     <div id="cos-logo">
      <a href="http://cos.name/">
       <img src="http://cos.name/wp-content/themes/COS-kermesinus/images/headers/cos-logo.png"/>
      </a>
     </div>
     <div class="navbar" id="navbar">
      <nav class="navigation main-navigation" id="site-navigation" role="navigation">
       <h3 class="menu-toggle">
        菜单
       </h3>
       <a class="screen-reader-text skip-link" href="http://cos.name/2013/08/something_about_weibo/#content" title="跳至内容">
        跳至内容
       </a>
       <div class="menu-%e6%88%91%e7%9a%84%e8%8f%9c%e5%8d%95-container">
        <ul class="nav-menu" id="menu-%e6%88%91%e7%9a%84%e8%8f%9c%e5%8d%95">
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-home menu-item-4746" id="menu-item-4746">
          <a href="http://cos.name">
           主页
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-has-children menu-item-8120" id="menu-item-8120">
          <a href="http://cos.name/cn">
           论坛
          </a>
          <ul class="sub-menu">
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8124" id="menu-item-8124">
            <a href="http://cos.name/cn/wp-login.php?action=register">
             论坛注册
            </a>
           </li>
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8125" id="menu-item-8125">
            <a href="http://cos.name/cn/wp-login.php">
             论坛登录
            </a>
           </li>
          </ul>
         </li>
         <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-8110" id="menu-item-8110">
          <a href="http://cos.name/books/">
           图书资料
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8112" id="menu-item-8112">
          <a href="http://cos.name/videos">
           视频教程
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8333" id="menu-item-8333">
          <a href="http://cos.name/salon/">
           统计沙龙
          </a>
         </li>
         <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-8111" id="menu-item-8111">
          <a href="http://cos.name/chinar/">
           R语言会议
          </a>
         </li>
         <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-8109" id="menu-item-8109">
          <a href="http://cos.name/training/">
           讲座与培训
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8115" id="menu-item-8115">
          <a href="http://cos.name/cn/forum/comprehensive/job/">
           招聘信息
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-has-children menu-item-4780" id="menu-item-4780">
          <a href="http://cos.name/about">
           关于我们
          </a>
          <ul class="sub-menu">
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8113" id="menu-item-8113">
            <a href="http://cos.name/2008/11/how-to-work-with-cos/">
             加入我们
            </a>
           </li>
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8119" id="menu-item-8119">
            <a href="http://cos.name/donate/">
             赞助我们
            </a>
           </li>
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8114" id="menu-item-8114">
            <a href="http://cos.name/cn/forum/26">
             项目合作
            </a>
           </li>
          </ul>
         </li>
        </ul>
       </div>
       <form action="http://cos.name/" class="search-form" method="get" role="search">
        <label>
         <span class="screen-reader-text">
          搜索：
         </span>
        </label>
       </form>
      </nav>
      <!-- #site-navigation -->
     </div>
     <!-- #navbar -->
    </header>
    <!-- #masthead -->
    <div class="site-main" id="main">
     <div class="content-area" id="primary">
      <div class="site-content" id="content" role="main">
       <article class="post-8197 post type-post status-publish format-standard hentry category-packages tag-topic-model tag-489 tag-421" id="post-8197">
        <header class="entry-header">
         <h1 class="entry-title">
          微博名人那些事儿
         </h1>
         <div class="entry-meta">
          <span class="date">
           <a href="http://cos.name/2013/08/something_about_weibo/" rel="bookmark" title="链向微博名人那些事儿的固定链接">
            <time class="entry-date" datetime="2013-08-22T11:35:14+00:00">
             2013/08/22
            </time>
           </a>
          </span>
          <span class="categories-links">
           <a href="http://cos.name/category/software/packages/" rel="category tag">
            统计软件
           </a>
          </span>
          <span class="tags-links">
           <a href="http://cos.name/tag/topic-model/" rel="tag">
            Topic Model
           </a>
           、
           <a href="http://cos.name/tag/%e5%be%ae%e5%8d%9a/" rel="tag">
            微博
           </a>
           、
           <a href="http://cos.name/tag/%e6%96%87%e6%9c%ac%e6%8c%96%e6%8e%98/" rel="tag">
            文本挖掘
           </a>
          </span>
          <span class="author vcard">
           <a class="url fn n" href="http://cos.name/author/editor/" rel="author" title="查看所有由COS编辑部发布的文章">
            COS编辑部
           </a>
          </span>
         </div>
         <!-- .entry-meta -->
        </header>
        <!-- .entry-header -->
        <div class="entry-content">
         <p>
          微博，这一新生代大规模杀伤性社交武器近年来迅速在国内走红，其来势之汹，范围之广，威力之猛当不可小觑。通过它，我们不仅能第一时间八卦到身边柴米油盐、鸡毛蒜皮的小事儿，而诸如家国天下、业内前沿的大事记也难以逃过公众的法眼。
         </p>
         <p>
          这样迅捷高效的信息传播是怎样做到的呢？相信每一个微博控都能如数家珍的道出自己心仪的几位微博名人们，不妨就从那些微博名人们入手，看看这些名人们身边的故事。
         </p>
         <p>
          <strong>
           1、信息采集
          </strong>
         </p>
         <p>
          信息采集，说白了就是数据爬取。还好，这些名人们可是早就
          <a href="http://data.weibo.com/top/influence/famous?class=29&amp;type=day" target="_blank">
           榜上有名
          </a>
          了，可以用XML包的readHTMLTable函数爬下来风云榜上来自体育、财经、传媒、科技 and so on的风云人物的微博信息，存为数据集。
         </p>
         <p>
          以sports数据集为例，代码如下：
         </p>
         <pre>library(XML)
# get data from web
webpage &lt;-'http://data.weibo.com/top/influence/famous?class=29&amp;type=day'
tables &lt;- readHTMLTable(webpage,stringsAsFactors = FALSE)
sports=tables[[1]][,c(1,2,3,6)]
names(sports)=c("rank","name","influence","description")</pre>
         <p>
          这样，我们就获取了这些名人们的微博大名。
          <br/>
          <span id="more-8197">
          </span>
          <br/>
          接下来，顺藤摸瓜，根据李舰老师Rweibo包（0.2-7版本）的web.search.user()以及web.user_timeline()函数就能得到他们的微博文本信息，这里考虑到可能会抓取失败的情形（教练我想要个高级权限T^T），得到如下代码(name为之前得到各个)：
         </p>
         <pre>name=c(sports$name,entertain$name,economic$name,media$name,literature$name,fashion$name,IT$name,education$name)
res_719=list()

for (i in 1:length(name))
{
 show(i)
 res_719[[i]] &lt;- tryCatch({
 user=web.search.user(name[i])
 a=web.user_timeline(roauth, uid=user$uid, pages = 1:3)
 }, error = function(err) {
 # warning handler picks up where error was generated
 print(paste("MY_ERROR: ",err))
 user=0
 a=0
 return(a)
 }, finally = {
 print(dim(a))
 }) # END tryCatch
}</pre>
         <p>
          最后成功抓取的微博名人有338个，让我们看看他们都是谁：
         </p>
         <pre>aa=sapply(res_719,function(x) {return(!is.null(dim(x)))})
weibo=res_719[aa]
name=name[aa]</pre>
         <p>
          截取部分显示如下：
          <br/>
          <a href="http://farm4.staticflickr.com/3722/9358128510_ea8bfe62b3.jpg">
           <img src="http://farm4.staticflickr.com/3722/9358128510_ea8bfe62b3.jpg"/>
          </a>
         </p>
         <p>
          <strong>
           2、数据清洗
          </strong>
         </p>
         <p>
          通过Rwordseg包，我们可以对中文的微博内容进行分词（由于名人大多为汉语用户，这里为方便后文处理，我去除了英文的词汇），首先需要安装需要的词典以及去除中文停词：
         </p>
         <pre>library(Rwordseg)
installDict("F:/weibo/data/搜狗标准词库.scel", dictname = "biaozhun.scel",
 dicttype = c("scel"))
insertWords("微博")
stopwords=readLines("your_home_path/CH_stopwords.txt")</pre>
         <p>
          接下来对微博内容去除链接、标点、数字、人名、停词等噪音信息，并以每位名人的逐条微博为单位保存。同时鉴于汉语的表意单元只保存了双字节及以上的汉语词汇，处理代码如下：
         </p>
         <pre>Clean.Weibo.list&lt;-function(x)
{
 weibos=c(x$Weibo,x$Forward)
 weibos=weibos[!is.na(weibos)]
 weibos1=gsub("(http://[a-z\\.\\/\\-0-9\\(\\)\\=]+)|(@[\u4e00-\u9fa5\\w]+\\s)|(//@[^\\s]+:)"," ",
 weibos,
 perl=T)
 weibos1=gsub('[[:punct:][:digit:]a-zA-Z\\-]+'," ",weibos1)
 seg_weibo=segmentCN(weibos1)
 seg_weibo1=lapply(seg_weibo,
 function(x)
 {y=setdiff(x,stopwords);z=y[y!=""&amp;nchar(y)&gt;=2];
 if (length(z)==0) return(0)
 return(table(z))})
 ll=sapply(seg_weibo1,function(x) return(all(x==0)))
 if (all(ll)) return(0)
 return(seg_weibo1[!ll])
}
weibo_doc1=lapply(weibo,Clean.Weibo.list)
ll=sapply(weibo_doc1,function(x) {return(is.list(x))})
weibo_doc1=weibo_doc1[ll]

name=name[ll]</pre>
         <p>
          去噪音后，最终保存的名人数为335个。
          <br/>
          不过，囿于本人机器的运算能力，在这里以名人为单位对其微博进行抽样汇总：
         </p>
         <pre>Weibo.sample&lt;-function(x)
{
 l=length(x)
 if (l&lt;10) return(x)
 ind=sample(1:l,floor(l/3))
 return(x[ind])
}
weibo_doc1_sample=lapply(weibo_doc1,Weibo.sample)
weibo_doc2=unlist(weibo_doc1_sample,recursive=F)</pre>
         <p>
          最终得到的微博个数为20767个。
         </p>
         <p>
          <strong>
           3、物以类聚
          </strong>
         </p>
         <p>
          俗话说的好，物以类聚，人以群分。如果你是个数据分析发烧友，那么你可能经常将“统计”、“机器学习”、“R语言”这些词汇挂在嘴边儿；而同时你又有可能是一名体育爱好者、车迷甚至于伪文艺青年。
         </p>
         <p>
          那么，怎样探寻汉语词汇之间关联关系以及表征每个人的兴趣爱好特征呢？我不禁想起了rickjin老师的
          <a href="http://cos.name/2013/03/lda-math-lda-text-modeling/">
           LDA数学八卦系列
          </a>
          ，不妨用Blei大神的topicmodel来小试牛刀吧~
         </p>
         <p>
          为了进一步去除噪音，首先去除某些
          <a href="http://en.wikipedia.org/wiki/Tf%E2%80%93idf">
           tf-idf
          </a>
          较低的词汇（这里去除的是quantile中小于0.01的词汇），并保存文档-词频矩阵（Doc-word Matrix）：
         </p>
         <pre>library(slam)
library(tm)
library(topicmodels)

get.col&lt;-function(com)
{
 col=unique(unlist(lapply(com,function(x) names(x))))
 return(col)
}

get.mat&lt;-function(col,com,M=F)
{
 nrow=length(com);ncol=length(col)
 ijv=NULL
 for (i in 1:length(com))
 {
 cat(i,"\n")
 ii=which(is.element(col,names(com[[i]])))
 ijv=rbind(ijv,cbind(i,ii,as.vector(com[[i]])))
 }
 if (M==T)
 mat=sparseMatrix(ijv[,1],ijv[,2],ijv[,3],
 dims=c(nrow,ncol))
 else
 mat=simple_triplet_matrix(ijv[,1],ijv[,2],ijv[,3], dimnames = NULL)

 colnames(mat)=col
 return(mat)
}
col_long=get.col(weibo_doc2)
weibo_mat_long=get.mat(col=col_long,weibo_doc2,M=F)
dtm &lt;- as.DocumentTermMatrix(weibo_mat_long,weighting =weightTf,
 control = list(stemming = TRUE, stopwords = TRUE, removePunctuation = TRUE,tolower=T))

term_tfidf &lt;-tapply(dtm$v/row_sums(dtm)[dtm$i], dtm$j, mean) *
 log2(nDocs(dtm)/col_sums(dtm &gt; 0))

ll=term_tfidf&gt;=quantile(term_tfidf,0.01)
dtm &lt;- dtm[,ll]
dtm &lt;- dtm[row_sums(dtm) &gt; 0,]</pre>
         <p>
          如何选一个合适的topic数目呢？可以分别选用
          <a href="http://en.wikipedia.org/wiki/Perplexity#Perplexity_of_a_probability_model" target="_blank">
           perplexity
          </a>
          以及loglikelihood指标分别求取最佳的topic数目，代码如下：
         </p>
         <pre>smp&lt;-function(cross=5,n,seed)
{
 set.seed(seed)
 dd=list()
 aa0=sample(rep(1:cross,ceiling(n/cross))[1:n],n)
 for (i in 1:cross) dd[[i]]=(1:n)[aa0==i]
 return(dd)
}
selectK&lt;-function(dtm,kv=seq(5,60,5),SEED=2013,cross=5,sp)
{
 per_gib=NULL
 log_gib=NULL
 for (k in kv)
 {
 per=NULL
 loglik=NULL
 for (i in 1:cross)
 {
 te=sp[[i]]
 tr=setdiff(1:nrow(dtm),te)
 Gibbs = LDA(dtm[tr,], k = k, method = "Gibbs",
 control = list(seed = SEED, burnin = 1000,
 thin = 100, iter = 1000))
 per=c(per,perplexity(Gibbs,newdata=dtm[te,]))
 loglik=c(loglik,logLik(Gibbs,newdata=dtm[te,]))
 }

 per_gib=rbind(per_gib,per)
 log_gib=rbind(log_gib,loglik)
 }
 return(list(perplex=per_gib,loglik=log_gib))
}

sp=smp(n=nrow(dtm),seed=2013)

system.time((gibK=selectK(dtm=dtm,kv=seq(5,60,5),SEED=2013,cross=5,sp=sp)))

m_per=apply(gibK[[1]],1,mean)

m_log=apply(gibK[[2]],1,mean)
k=seq(5,60,5)
plot(x=k,y=m_per)
k[which.min(m_per)]
plot(x=k,y=m_log)
k[which.max(m_log)]</pre>
         <p>
          选取50作为合适的topic数目（这一部分运行成本较高，慎）。以Gibbs sampling的inference方法为例，让我们看看每个topic中的高频词分别是什么：
         </p>
         <pre>SEED &lt;- 2013

VEM = LDA(dtm, k = k, control = list(seed = SEED))
VEM_fixed = LDA(dtm, k = k,
 control = list(estimate.alpha = FALSE, seed = SEED))
CTM = CTM(dtm, k = k,
 control = list(seed = SEED,
 var = list(tol = 10^-4), em = list(tol = 10^-3)))

Gibbs = LDA(dtm, k = k, method = "Gibbs",
 control = list(seed = SEED, burnin = 1000,
 thin = 100, iter = 1000))

terms(Gibbs,5)</pre>
         <p>
          <img src="http://farm8.staticflickr.com/7440/9363559724_8b4cf9a07f.jpg"/>
         </p>
         <p>
          可以看到它们之中有关于电子产品的（手机、电脑、游戏）、有关于热点新闻的（首都机场爆炸、雅安地震、城管打死瓜农）、有娱乐新闻的、也有各种活动有奖转发的。接下来，用训练好的topicmodel做inference，这里我们需要的是以人为单位的document:
         </p>
         <pre>## inference
Clean.Weibo&lt;-function(x)
{
 weibos=c(x$Weibo,x$Forward)
 weibos=weibos[!is.na(weibos)]
 weibos1=gsub("(http://[a-z\\.\\/\\-0-9\\(\\)\\=]+)|(@[\u4e00-\u9fa5\\w]+\\s)|(//@[^\\s]+:)"," ",
 weibos,
 perl=T)
 seg_weibo=unlist(segmentCN(weibos1))
 seg_weibo1=setdiff(seg_weibo,stopwords)
 seg_weibo2=gsub('[[:punct:][:digit:]a-zA-Z\\-]+',"",seg_weibo1)
 seg_weibo2=seg_weibo2[seg_weibo2!=""&amp;nchar(seg_weibo2)&gt;=2]
 if (length(seg_weibo2)==0) return(0)
 return(table(seg_weibo2))
}
weibo_doc=lapply(weibo,Clean.Weibo)
ll=sapply(weibo_doc,function(x) {return(!all(x==0))})
weibo_doc=weibo_doc[ll]
col=get.col(weibo_doc)
weibo_mat=get.mat(col=col,weibo_doc,M=F)
dtm &lt;- as.DocumentTermMatrix(weibo_mat,weighting =weightTf,
 control = list(stemming = TRUE, stopwords = TRUE, removePunctuation = TRUE,tolower=T))
dist=posterior(Gibbs,newdata=dtm)[[2]]</pre>
         <p>
          不妨选取几个有代表性的topic（这里我去除了一些副词、连接词以及表征时间的词汇代表的topic），做聚类热力图。与单纯用词频文档聚类而得的热力图对比如下：
         </p>
         <p>
          <img src="http://farm8.staticflickr.com/7443/9360987263_837e7d2423.jpg"/>
         </p>
         <p>
          <img src="http://farm8.staticflickr.com/7330/9360987287_03229dfe24.jpg"/>
         </p>
         <p>
          可见topicmodel起到了一定的提取特征，去粗取精的功效。
         </p>
         <p>
          不妨拿名人们在所选的topic上的得分做一下聚类分析。这里按照每个topic中的高频词对不同topic进行命名，选取类别数为10（最大类中的名人个数&lt;=60），对每一类中的均值topic得分做均值图（点击看大图）：
         </p>
         <p>
          <a href="http://farm4.staticflickr.com/3698/9541751665_4f36190516_o.png">
           <img src="http://farm4.staticflickr.com/3698/9541751665_c935e93cec.jpg"/>
          </a>
         </p>
         <p>
          代码如下，每一类的名人保存于hc_name中：
         </p>
         <pre>colnames(dist1)=c("电子","娱乐","城管","地震","新闻","机场","广告","影音",
 "体育","政治","时尚","文化","法律","情感","青春","家庭")

k=2
while(max(sapply(rect.hclust(hc, k=k),length))&gt;60)
 {k=k+1;
 show(k)}

hc_res=rect.hclust(hc, k=10)
hc_mean=lapply(1:length(hc_res),function(x)
 {return(data.frame(group=as.factor(x),topic=as.factor(colnames(dist1)),value=apply(dist1[hc_res[[x]],],2,mean)))})
hc_mean_d=do.call(rbind,hc_mean)&lt;/pre&gt;
p &lt;- ggplot(hc_mean_d, aes(x=topic,y=value,fill=topic))
p= p +geom_bar(stat="identity",col="black")
p &lt;-p+ facet_wrap(~ group, ncol = 2,drop=F)
p=p + theme(axis.text.y = element_text(size=rel(1.5),colour="black"),
 axis.text.x = element_text(size=rel(1.7),colour="black",angle=45),
 axis.title.y = element_text(size = rel(1.5), angle = 90,face="bold"),
 axis.title.x = element_text(size = rel(1.5),face="bold"),
 plot.title = element_text(size = rel(1.8),face="bold"),
 strip.text = element_text(size = 15, face="bold",
 hjust = 0.5, vjust = 0.5))

p
hc_name=lapply(hc_res,function(x) {return(name[x])})</pre>
         <p>
          <img src="http://farm3.staticflickr.com/2813/9361857131_0ddd755308.jpg"/>
         </p>
         <p>
          后记：
         </p>
         <p>
          整个过程中有很多不甚明朗的地方，我且谨列几条如下：
         </p>
         <p>
          （1） doc应该怎样定义，是应该以每人为单位训练topicmodel还是应该以每条微博为单位？经过比较我发现以每条微博为单位训练的topicmodel中的每个topic的term类别更加一致；因此我选择了以微博为doc单位训练，并以人为doc单位做inference；不过我没有找到关于这个问题更详细的reference，看到的几篇关于twitter、microblog的topicmodel应用也是用逐条微博作为处理单位。
         </p>
         <p>
          （2）不同的估计方法之间有什么区别？R包提供的有VEM、Gibbs、CTM等，这里没有做细节的比较，本文后文结果全部以Gibbs估计结果为主。
         </p>
         <p>
          （3）topicmodel适不适合做短文本的分析？sparsity会带来怎样的问题？实际上以逐条微博为doc单位分析正会导致sparsity的问题，不过我还没意识到它潜在带来的问题。
         </p>
         <p>
          （4）中文的文本处理感觉很捉急啊……除了分词之外的词性标注、句法分析、同义词等等都没有专门处理的R包，本文也仅做了初步的处理。
         </p>
         <p>
          （5）最后的聚类效果不仅仅考虑名人的专业领域，也考虑了其生活中的情感状态、爱好兴趣等，是一个综合的结果，选取不同的专业领域可以通过选取不同topic做聚类分析而得。
         </p>
         <p>
          <strong>
           关于作者
          </strong>
         </p>
         <ul>
          <li>
           朱雪宁
          </li>
          <li>
           博客：
           <strong>
            <a href="http://www.puddingnnn.com/" target="_blank">
             他山
            </a>
           </strong>
           <a href="http://hi.baidu.com/healthstat" target="_blank">
            <br/>
           </a>
          </li>
          <li>
           微博：
           <a href="http://weibo.com/puddingnnn529">
            <strong>
             @布丁Nnn
            </strong>
           </a>
          </li>
         </ul>
         <p>
          注：原文链接：
          <a href="http://www.puddingnnn.com/%E5%BE%AE%E5%8D%9A%E5%90%8D%E4%BA%BA%E7%9A%84%E9%82%A3%E4%BA%9B%E4%BA%8B%E5%84%BF/" target="_blank">
           微博名人那些事儿
          </a>
          ，转载请注明出处。
         </p>
         <p>
         </p>
         <div class="wumii-hook">
          <br/>
          <br/>
         </div>
        </div>
        <!-- .entry-content -->
        <footer class="entry-meta">
         <div class="author-info">
          <div class="author-avatar">
           <img src="http://sdn.geekzu.org/avatar/2fe058e9e383c85afa949b36e869432f?s=74&amp;d=monsterid&amp;r=g"/>
          </div>
          <!-- .author-avatar -->
          <div class="author-description">
           <h2 class="author-title">
            关于COS编辑部
           </h2>
           <p class="author-bio">
            本账户为COS编辑部公共账户，目前由朱雪宁任主编，王小宁任副主编，编辑有：冯璟烁、吴佳萍、张心雨、施涛、霍志骥、何通、冷静、尤晓斌、肖楠、邱怡轩、高涛、谢益辉等人，主要负责主站文章的规范化编辑以及相关论文、书籍、手册的整理、编纂、出版等工作。
            <a class="author-link" href="http://cos.name/author/editor/" rel="author">
             查看所有由COS编辑部发表的文章
             <span class="meta-nav">
              →
             </span>
            </a>
           </p>
          </div>
          <!-- .author-description -->
         </div>
         <!-- .author-info -->
        </footer>
        <!-- .entry-meta -->
       </article>
       <!-- #post -->
       <nav class="navigation post-navigation" role="navigation">
        <h1 class="screen-reader-text">
         文章导航
        </h1>
        <div class="nav-links">
         <a href="http://cos.name/2013/08/interview_of_xie_liang/" rel="prev">
          <span class="meta-nav">
           ←
          </span>
          COS访谈第四期：谢梁（微软）
         </a>
         <a href="http://cos.name/2013/08/something_else_about_weibo/" rel="next">
          微博名人那些事儿（二）
          <span class="meta-nav">
           →
          </span>
         </a>
        </div>
        <!-- .nav-links -->
       </nav>
       <!-- .navigation -->
       <div class="comments-area" id="comments">
        <h2 class="comments-title">
         《
         <span>
          微博名人那些事儿
         </span>
         》有15个想法
        </h2>
        <ol class="comment-list">
         <li class="comment even thread-even depth-1 parent" id="comment-4687">
          <article class="comment-body" id="div-comment-4687">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/0434e7d97eb9b3bbf7c2c8711bb71b7a?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              <a class="url" href="http://xiaoyongzi.github.io" rel="external nofollow">
               @小雍子
              </a>
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2013/08/something_about_weibo/#comment-4687">
              <time datetime="2013-08-22T23:01:42+00:00">
               2013/08/22 23:01
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             我们通常认为一条微博是一个topic 那一个人其实往往是多个topic的 比如我们的开复老师关注点特多！为了降低一些低频topic的干扰 我觉得可以先对名人的doc在所有名人的corpus中做TF-IDF之后 先筛选一下再topic modeling感觉上也更合理。
            </p>
            <p>
             关于你提出的短文本的问题，可以参考Hu Yihui老师的一篇经典可视化论文里对twitter的操作，他认为tf-idf比LDA更合适短文本：But in our application, we found LDA not any better than td-idf for identifying meaningful clusters. Sometimes LDA clusters messages that have no words in common, because LDA treats them as belonging to the same topic. The problem is that with short messages such as tweets, these assignments are not always meaningful. With tf-idf, messages in the same cluster must share at least some words, making the cluster easier to interpret, even if it is not always semantically “correct.”
             <br/>
             详见http://www.research.att.com/export/sites/att_labs/techdocs/TD_100840.pdf
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给@小雍子" class="comment-reply-link" href="http://cos.name/2013/08/something_about_weibo/?replytocom=4687#respond" onclick='return addComment.moveForm( "div-comment-4687", "4687", "respond", "8197" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
          <ol class="children">
           <li class="comment byuser comment-author-editor bypostauthor odd alt depth-2" id="comment-4695">
            <article class="comment-body" id="div-comment-4695">
             <footer class="comment-meta">
              <div class="comment-author vcard">
               <img src="http://sdn.geekzu.org/avatar/2fe058e9e383c85afa949b36e869432f?s=74&amp;d=monsterid&amp;r=g"/>
               <b class="fn">
                COS编辑部
               </b>
               <span class="says">
                说道：
               </span>
              </div>
              <!-- .comment-author -->
              <div class="comment-metadata">
               <a href="http://cos.name/2013/08/something_about_weibo/#comment-4695">
                <time datetime="2013-08-23T10:16:30+00:00">
                 2013/08/23 10:16
                </time>
               </a>
              </div>
              <!-- .comment-metadata -->
             </footer>
             <!-- .comment-meta -->
             <div class="comment-content">
              <p>
               谢谢雍子哥~我用人和微博作为doc都尝试了一下，分别用tfidf筛了词，但是没有用人的筛过微博的，我回头试试~ 我自己也觉得lda提取topic对人的聚类效果一般，不过据我实验的话用weibo作为doc的关于词语的聚类效果还是挺好的呢&gt;&lt;……
              </p>
             </div>
             <!-- .comment-content -->
             <div class="reply">
              <a aria-label="回复给COS编辑部" class="comment-reply-link" href="http://cos.name/2013/08/something_about_weibo/?replytocom=4695#respond" onclick='return addComment.moveForm( "div-comment-4695", "4695", "respond", "8197" )' rel="nofollow">
               回复
              </a>
             </div>
            </article>
            <!-- .comment-body -->
           </li>
           <!-- #comment-## -->
           <li class="comment even depth-2" id="comment-4696">
            <article class="comment-body" id="div-comment-4696">
             <footer class="comment-meta">
              <div class="comment-author vcard">
               <img src="http://sdn.geekzu.org/avatar/436174399b7aaeb22c666bc623015a5c?s=74&amp;d=monsterid&amp;r=g"/>
               <b class="fn">
                <a class="url" href="http://www.puddingnnn.com" rel="external nofollow">
                 pudding
                </a>
               </b>
               <span class="says">
                说道：
               </span>
              </div>
              <!-- .comment-author -->
              <div class="comment-metadata">
               <a href="http://cos.name/2013/08/something_about_weibo/#comment-4696">
                <time datetime="2013-08-23T10:25:39+00:00">
                 2013/08/23 10:25
                </time>
               </a>
              </div>
              <!-- .comment-metadata -->
             </footer>
             <!-- .comment-meta -->
             <div class="comment-content">
              <p>
               谢谢雍子哥~我用人和微博作为doc都尝试了一下，分别用tfidf筛了词，但是没有用人的筛过微博的，我回头试试~ 我自己也觉得lda提取topic降维之后对人的聚类效果一般，不过据我实验的话用weibo作为doc的关于词语的聚类效果还是挺好的呢&gt;&lt;……
               <br/>
               如果是单纯做推荐的话，我觉得还有待进一步实验……比如做点文本的扩充或者用推荐内容的语料库来训练模型
              </p>
             </div>
             <!-- .comment-content -->
             <div class="reply">
              <a aria-label="回复给pudding" class="comment-reply-link" href="http://cos.name/2013/08/something_about_weibo/?replytocom=4696#respond" onclick='return addComment.moveForm( "div-comment-4696", "4696", "respond", "8197" )' rel="nofollow">
               回复
              </a>
             </div>
            </article>
            <!-- .comment-body -->
           </li>
           <!-- #comment-## -->
          </ol>
          <!-- .children -->
         </li>
         <!-- #comment-## -->
         <li class="comment odd alt thread-odd thread-alt depth-1 parent" id="comment-4701">
          <article class="comment-body" id="div-comment-4701">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/e494619d679806adda02b8f123f61203?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              WJILIN
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2013/08/something_about_weibo/#comment-4701">
              <time datetime="2013-08-24T21:10:10+00:00">
               2013/08/24 21:10
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             这是怎么回事？
            </p>
            <p>
             [1] 1
             <br/>
             [1] “MY_ERROR:  Error in if (uid == roauth$webUser) stop(\”Can’t search the current user, please change an account to login.\”): 参数长度为零\n”
             <br/>
             错误于print(dim(a)) : 找不到对象’a’
             <br/>
             此外: 警告信息：
             <br/>
             Can not crawl any page now. May be forbidden by Sina temporarily.
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给WJILIN" class="comment-reply-link" href="http://cos.name/2013/08/something_about_weibo/?replytocom=4701#respond" onclick='return addComment.moveForm( "div-comment-4701", "4701", "respond", "8197" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
          <ol class="children">
           <li class="comment even depth-2 parent" id="comment-4702">
            <article class="comment-body" id="div-comment-4702">
             <footer class="comment-meta">
              <div class="comment-author vcard">
               <img src="http://sdn.geekzu.org/avatar/436174399b7aaeb22c666bc623015a5c?s=74&amp;d=monsterid&amp;r=g"/>
               <b class="fn">
                <a class="url" href="http://www.puddingnnn.com" rel="external nofollow">
                 pudding
                </a>
               </b>
               <span class="says">
                说道：
               </span>
              </div>
              <!-- .comment-author -->
              <div class="comment-metadata">
               <a href="http://cos.name/2013/08/something_about_weibo/#comment-4702">
                <time datetime="2013-08-24T22:02:53+00:00">
                 2013/08/24 22:02
                </time>
               </a>
              </div>
              <!-- .comment-metadata -->
             </footer>
             <!-- .comment-meta -->
             <div class="comment-content">
              <p>
               模拟登陆成功了嘛？
              </p>
             </div>
             <!-- .comment-content -->
             <div class="reply">
              <a aria-label="回复给pudding" class="comment-reply-link" href="http://cos.name/2013/08/something_about_weibo/?replytocom=4702#respond" onclick='return addComment.moveForm( "div-comment-4702", "4702", "respond", "8197" )' rel="nofollow">
               回复
              </a>
             </div>
            </article>
            <!-- .comment-body -->
            <ol class="children">
             <li class="comment odd alt depth-3" id="comment-4703">
              <article class="comment-body" id="div-comment-4703">
               <footer class="comment-meta">
                <div class="comment-author vcard">
                 <img src="http://sdn.geekzu.org/avatar/e494619d679806adda02b8f123f61203?s=74&amp;d=monsterid&amp;r=g"/>
                 <b class="fn">
                  WJILIN
                 </b>
                 <span class="says">
                  说道：
                 </span>
                </div>
                <!-- .comment-author -->
                <div class="comment-metadata">
                 <a href="http://cos.name/2013/08/something_about_weibo/#comment-4703">
                  <time datetime="2013-08-24T22:45:00+00:00">
                   2013/08/24 22:45
                  </time>
                 </a>
                </div>
                <!-- .comment-metadata -->
               </footer>
               <!-- .comment-meta -->
               <div class="comment-content">
                <p>
                 返回的是
                 <br/>
                 Login successfully!
                 <br/>
                 应该是成功了吧
                </p>
               </div>
               <!-- .comment-content -->
              </article>
              <!-- .comment-body -->
             </li>
             <!-- #comment-## -->
            </ol>
            <!-- .children -->
           </li>
           <!-- #comment-## -->
          </ol>
          <!-- .children -->
         </li>
         <!-- #comment-## -->
         <li class="comment even thread-even depth-1" id="comment-4723">
          <article class="comment-body" id="div-comment-4723">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              <a class="url" href="http://weibo.com/sisyfus" rel="external nofollow">
               Sisyfus
              </a>
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2013/08/something_about_weibo/#comment-4723">
              <time datetime="2013-08-26T23:26:54+00:00">
               2013/08/26 23:26
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             聚类热力图
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给Sisyfus" class="comment-reply-link" href="http://cos.name/2013/08/something_about_weibo/?replytocom=4723#respond" onclick='return addComment.moveForm( "div-comment-4723", "4723", "respond", "8197" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
         <li class="comment odd alt thread-odd thread-alt depth-1" id="comment-4734">
          <article class="comment-body" id="div-comment-4734">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/a71d7c5070dc7e78c7b3a0d658bb3056?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              tia
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2013/08/something_about_weibo/#comment-4734">
              <time datetime="2013-08-28T23:53:47+00:00">
               2013/08/28 23:53
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             1
             <br/>
             "MY_ERROR:  Error: The pages were out of range!n"
             <br/>
             Error in print(dim(a)) : object ‘a’ not found
             <br/>
             In addition: Warning messages:
             <br/>
             1: In web.search.user(name  ) : NAs introduced by coercion
             <br/>
             2: Can not crawl any page now. May be forbidden by Sina temporarily.
             <br/>
             &gt;
            </p>
            <p>
             卡在这里了。。。
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给tia" class="comment-reply-link" href="http://cos.name/2013/08/something_about_weibo/?replytocom=4734#respond" onclick='return addComment.moveForm( "div-comment-4734", "4734", "respond", "8197" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
         <li class="comment even thread-even depth-1 parent" id="comment-4735">
          <article class="comment-body" id="div-comment-4735">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/fd6964ed425d626628bd057abbe6a85b?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              <a class="url" href="http://yihui.name" rel="external nofollow">
               谢益辉
              </a>
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2013/08/something_about_weibo/#comment-4735">
              <time datetime="2013-08-29T08:28:32+00:00">
               2013/08/29 08:28
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             Hu Yifan，非Hu Yihui，当时我在ATT的时候有人也搞不清楚Yifan/Yihui……
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给谢益辉" class="comment-reply-link" href="http://cos.name/2013/08/something_about_weibo/?replytocom=4735#respond" onclick='return addComment.moveForm( "div-comment-4735", "4735", "respond", "8197" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
          <ol class="children">
           <li class="comment odd alt depth-2" id="comment-4744">
            <article class="comment-body" id="div-comment-4744">
             <footer class="comment-meta">
              <div class="comment-author vcard">
               <img src="http://sdn.geekzu.org/avatar/66aa115466aeedf71937ff80c00b7982?s=74&amp;d=monsterid&amp;r=g"/>
               <b class="fn">
                <a class="url" href="http://weibo.com/road2stat" rel="external nofollow">
                 road2stat
                </a>
               </b>
               <span class="says">
                说道：
               </span>
              </div>
              <!-- .comment-author -->
              <div class="comment-metadata">
               <a href="http://cos.name/2013/08/something_about_weibo/#comment-4744">
                <time datetime="2013-08-29T22:34:40+00:00">
                 2013/08/29 22:34
                </time>
               </a>
              </div>
              <!-- .comment-metadata -->
             </footer>
             <!-- .comment-meta -->
             <div class="comment-content">
              <p>
               Hu Yihui 。。笑抽了 。。
              </p>
             </div>
             <!-- .comment-content -->
             <div class="reply">
              <a aria-label="回复给road2stat" class="comment-reply-link" href="http://cos.name/2013/08/something_about_weibo/?replytocom=4744#respond" onclick='return addComment.moveForm( "div-comment-4744", "4744", "respond", "8197" )' rel="nofollow">
               回复
              </a>
             </div>
            </article>
            <!-- .comment-body -->
           </li>
           <!-- #comment-## -->
          </ol>
          <!-- .children -->
         </li>
         <!-- #comment-## -->
         <li class="comment even thread-odd thread-alt depth-1 parent" id="comment-4740">
          <article class="comment-body" id="div-comment-4740">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              <a class="url" href="http://weibo.com/1985659785" rel="external nofollow">
               昨天今天明天X
              </a>
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2013/08/something_about_weibo/#comment-4740">
              <time datetime="2013-08-29T17:07:48+00:00">
               2013/08/29 17:07
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             Clean.Weibo.list函数中的setdiff操作貌似包含了去重的效果？ 使用这个函数，最后table出来的词频全部变成1 ………….
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给昨天今天明天X" class="comment-reply-link" href="http://cos.name/2013/08/something_about_weibo/?replytocom=4740#respond" onclick='return addComment.moveForm( "div-comment-4740", "4740", "respond", "8197" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
          <ol class="children">
           <li class="comment odd alt depth-2" id="comment-6655">
            <article class="comment-body" id="div-comment-6655">
             <footer class="comment-meta">
              <div class="comment-author vcard">
               <img src="http://sdn.geekzu.org/avatar/abc25c2751dec010b26f1d87df2ca2b4?s=74&amp;d=monsterid&amp;r=g"/>
               <b class="fn">
                statoor
               </b>
               <span class="says">
                说道：
               </span>
              </div>
              <!-- .comment-author -->
              <div class="comment-metadata">
               <a href="http://cos.name/2013/08/something_about_weibo/#comment-6655">
                <time datetime="2015-04-09T10:09:16+00:00">
                 2015/04/09 10:09
                </time>
               </a>
              </div>
              <!-- .comment-metadata -->
             </footer>
             <!-- .comment-meta -->
             <div class="comment-content">
              <p>
               setdiff的确自带去重了，这里不太能这样用，用y=x[!x %in% stopwords]即可。
              </p>
             </div>
             <!-- .comment-content -->
             <div class="reply">
              <a aria-label="回复给statoor" class="comment-reply-link" href="http://cos.name/2013/08/something_about_weibo/?replytocom=6655#respond" onclick='return addComment.moveForm( "div-comment-6655", "6655", "respond", "8197" )' rel="nofollow">
               回复
              </a>
             </div>
            </article>
            <!-- .comment-body -->
           </li>
           <!-- #comment-## -->
          </ol>
          <!-- .children -->
         </li>
         <!-- #comment-## -->
         <li class="comment even thread-even depth-1" id="comment-4814">
          <article class="comment-body" id="div-comment-4814">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              <a class="url" href="http://weibo.com/1927447205" rel="external nofollow">
               大海之鹏
              </a>
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2013/08/something_about_weibo/#comment-4814">
              <time datetime="2013-09-07T17:49:45+00:00">
               2013/09/07 17:49
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             最近也在学LDA，这些微博名人的数据集公开吗？
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给大海之鹏" class="comment-reply-link" href="http://cos.name/2013/08/something_about_weibo/?replytocom=4814#respond" onclick='return addComment.moveForm( "div-comment-4814", "4814", "respond", "8197" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
         <li class="comment odd alt thread-odd thread-alt depth-1" id="comment-4981">
          <article class="comment-body" id="div-comment-4981">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/9c93352fd4f668c54458543db054f8de?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              jiang
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2013/08/something_about_weibo/#comment-4981">
              <time datetime="2013-10-20T12:21:12+00:00">
               2013/10/20 12:21
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             @pudding 确定topic数目的运行成本到底有多大？我用你的这个函数，运行5000*300左右的dtm矩阵，跑个通宵也没出结果啊？
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给jiang" class="comment-reply-link" href="http://cos.name/2013/08/something_about_weibo/?replytocom=4981#respond" onclick='return addComment.moveForm( "div-comment-4981", "4981", "respond", "8197" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
         <li class="comment even thread-even depth-1" id="comment-6219">
          <article class="comment-body" id="div-comment-6219">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              <a class="url" href="http://t.qq.com/a1031820039" rel="external nofollow">
               范新妍
              </a>
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2013/08/something_about_weibo/#comment-6219">
              <time datetime="2014-09-17T18:56:36+00:00">
               2014/09/17 18:56
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             不能爬下数据来。。。为什么？
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给范新妍" class="comment-reply-link" href="http://cos.name/2013/08/something_about_weibo/?replytocom=6219#respond" onclick='return addComment.moveForm( "div-comment-6219", "6219", "respond", "8197" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
        </ol>
        <!-- .comment-list -->
        <div class="comment-respond" id="respond">
         <h3 class="comment-reply-title" id="reply-title">
          发表评论
          <small>
           <a href="http://cos.name/2013/08/something_about_weibo/#respond" id="cancel-comment-reply-link" rel="nofollow" style="display:none;">
            取消回复
           </a>
          </small>
         </h3>
         <form action="http://cos.name/wp-comments-post.php" class="comment-form" id="commentform" method="post" novalidate="">
          <p class="comment-notes">
           <span id="email-notes">
            电子邮件地址不会被公开。
           </span>
           必填项已用
           <span class="required">
            *
           </span>
           标注
          </p>
          <p class="comment-form-comment">
           <label for="comment">
            评论
           </label>
           <textarea aria-required="true" cols="45" id="comment" maxlength="65525" name="comment" required="required" rows="8">
           </textarea>
          </p>
          <p class="comment-form-author">
           <label for="author">
            姓名
            <span class="required">
             *
            </span>
           </label>
          </p>
          <p class="comment-form-email">
           <label for="email">
            电子邮件
            <span class="required">
             *
            </span>
           </label>
          </p>
          <p class="comment-form-url">
           <label for="url">
            站点
           </label>
          </p>
          <p class="form-submit">
          </p>
          <p style="display: none;">
          </p>
          <p style="display: none;">
          </p>
         </form>
        </div>
        <!-- #respond -->
       </div>
       <!-- #comments -->
      </div>
      <!-- #content -->
     </div>
     <!-- #primary -->
     <div class="sidebar-container" id="tertiary" role="complementary">
      <div class="sidebar-inner">
       <div class="widget-area">
        <aside class="widget widget_text" id="text-3">
         <h3 class="widget-title">
          关注统计之都
         </h3>
         <div class="textwidget">
          <ul>
           <li>
            新浪微博
            <a href="http://weibo.com/cosname">
             @统计之都
            </a>
           </li>
           <li>
            人人网
            <a href="http://renren.com/cosname">
             @统计之都
            </a>
           </li>
           <li>
            Twitter
            <a href="http://twitter.com/cos_name">
             @cos_name
            </a>
           </li>
          </ul>
         </div>
        </aside>
        <aside class="widget widget_text" id="text-6">
         <h3 class="widget-title">
          微信公众平台
         </h3>
         <div class="textwidget">
          <img src="http://cos.name/wp-content/uploads/2013/04/qrcode-8cm.jpg"/>
          <p style="font-size:12px;margin-left:15px">
           微信号 CapStat
          </p>
          <p>
           我们将第一时间向您推送主站和论坛的精彩内容，以及统计之都的线下活动、竞赛、培训和会议信息。
          </p>
         </div>
        </aside>
        <aside class="widget widget_text" id="text-8">
         <h3 class="widget-title">
          站内导航
         </h3>
         <div class="textwidget">
          <ul>
           <li class="page_item">
            <a href="http://cos.name/cn/">
             中文论坛
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/videos/">
             视频
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/salon/">
             统计沙龙
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/books/">
             图书出版
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/training/">
             教育培训
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/about/">
             关于我们
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/donate/">
             捐赠
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/chinar/">
             R语言会议
            </a>
           </li>
          </ul>
         </div>
        </aside>
        <aside class="widget widget_links" id="linkcat-2">
         <h3 class="widget-title">
          友情链接
         </h3>
         <ul class="xoxo blogroll">
          <li>
           <a href="http://stat.ruc.edu.cn" target="_blank" title="中国人民大学统计学院网站">
            中国人民大学统计学院
           </a>
          </li>
          <li>
           <a href="http://rucdmc.net">
            中国人民大学数据挖掘中心
           </a>
          </li>
          <li>
           <a href="http://birc.gsm.pku.edu.cn/" target="_blank">
            北京大学商务智能研究中心
           </a>
          </li>
          <li>
           <a href="http://sam.cufe.edu.cn/" target="_blank" title="中央财经大学统计与数学学院网站">
            中央财经大学统计与数学学院
           </a>
          </li>
          <li>
           <a href="http://tjx.cueb.edu.cn/" target="_blank" title="首都经济贸易大学统计学院网站">
            首经贸统计学院
           </a>
          </li>
          <li>
           <a href="http://www.shookr.com/">
            数客网大数据社区
           </a>
          </li>
          <li>
           <a href="http://www.xueqing.tv/" target="_blank" title="数据科学在线学习平台">
            雪晴数据网
           </a>
          </li>
          <li>
           <a href="http://iera.name/" target="_blank" title="IERA是一个旨在普及、传播和增进工业工程知识的非营利性网站">
            IERA（直通IE）
           </a>
          </li>
         </ul>
        </aside>
        <aside class="widget widget_categories" id="categories-2">
         <h3 class="widget-title">
          全部分类
         </h3>
         <label class="screen-reader-text" for="cat">
          全部分类
         </label>
         <select class="postform" id="cat" name="cat">
          <option value="-1">
           选择分类目录
          </option>
          <option class="level-0" value="925">
           cos访谈  (4)
          </option>
          <option class="level-0" value="659">
           图书出版  (5)
          </option>
          <option class="level-0" value="379">
           数学方法  (14)
          </option>
          <option class="level-1" value="381">
           分析与代数  (1)
          </option>
          <option class="level-1" value="380">
           概率论  (9)
          </option>
          <option class="level-1" value="382">
           随机过程  (5)
          </option>
          <option class="level-0" value="210">
           数据分析  (81)
          </option>
          <option class="level-1" value="203">
           多元统计  (3)
          </option>
          <option class="level-1" value="42">
           数据挖掘与机器学习  (42)
          </option>
          <option class="level-1" value="36">
           生物与医学统计  (17)
          </option>
          <option class="level-1" value="35">
           计量经济学  (4)
          </option>
          <option class="level-1" value="296">
           金融统计  (3)
          </option>
          <option class="level-1" value="303">
           风险精算  (7)
          </option>
          <option class="level-0" value="177">
           模型专题  (15)
          </option>
          <option class="level-1" value="38">
           回归分析  (10)
          </option>
          <option class="level-1" value="41">
           时间序列  (2)
          </option>
          <option class="level-0" value="784">
           每周精选  (24)
          </option>
          <option class="level-1" value="183">
           可视化  (9)
          </option>
          <option class="level-0" value="967">
           沙龙纪要  (3)
          </option>
          <option class="level-0" value="18">
           经典理论  (46)
          </option>
          <option class="level-1" value="37">
           抽样调查  (3)
          </option>
          <option class="level-1" value="4">
           统计推断  (26)
          </option>
          <option class="level-1" value="236">
           试验设计  (7)
          </option>
          <option class="level-1" value="39">
           非参数统计  (3)
          </option>
          <option class="level-0" value="1">
           统计之都  (279)
          </option>
          <option class="level-1" value="884">
           中国R会议  (2)
          </option>
          <option class="level-1" value="885">
           中国R语言会议  (5)
          </option>
          <option class="level-1" value="446">
           出国留学  (3)
          </option>
          <option class="level-1" value="179">
           推荐文章  (90)
          </option>
          <option class="level-1" value="3">
           新闻通知  (75)
          </option>
          <option class="level-1" value="263">
           统计刊物  (10)
          </option>
          <option class="level-1" value="174">
           网站导读  (40)
          </option>
          <option class="level-1" value="204">
           职业事业  (51)
          </option>
          <option class="level-1" value="213">
           高校课堂  (9)
          </option>
          <option class="level-0" value="178">
           统计计算  (28)
          </option>
          <option class="level-1" value="40">
           优化与模拟  (15)
          </option>
          <option class="level-1" value="43">
           贝叶斯方法  (6)
          </option>
          <option class="level-0" value="378">
           软件应用  (116)
          </option>
          <option class="level-1" value="44">
           统计图形  (36)
          </option>
          <option class="level-1" value="110">
           统计软件  (83)
          </option>
         </select>
        </aside>
        <aside class="widget widget_recent_comments" id="recent-comments-2">
         <h3 class="widget-title">
          最新评论
         </h3>
         <ul id="recentcomments">
          <li class="recentcomments">
           <span class="comment-author-link">
            fineboom
           </span>
           发表在《
           <a href="http://cos.name/2016/06/use-shiny-fleetly-set-up-visual-prototype-system/#comment-7317">
            利用shiny包快速搭建可视化原型系统
           </a>
           》
          </li>
          <li class="recentcomments">
           <span class="comment-author-link">
            胡家新
           </span>
           发表在《
           <a href="http://cos.name/2016/06/r%e8%af%ad%e5%8d%83%e5%af%bb%e7%ac%ac%e4%b8%89%e6%9c%9f%ef%bc%9a%e5%bc%a0%e6%97%a0%e5%bf%8c%e7%a9%b6%e7%ab%9f%e7%88%b1%e8%b0%81%ef%bc%9f/#comment-7316">
            R语千寻第三期：张无忌究竟爱谁？
           </a>
           》
          </li>
          <li class="recentcomments">
           <span class="comment-author-link">
            <a class="url" href="http://www.zijiacha.com/category.php?id=6" rel="external nofollow">
             南糯山普洱茶
            </a>
           </span>
           发表在《
           <a href="http://cos.name/2016/06/r%e8%af%ad%e5%8d%83%e5%af%bb%e7%ac%ac%e4%b8%89%e6%9c%9f%ef%bc%9a%e5%bc%a0%e6%97%a0%e5%bf%8c%e7%a9%b6%e7%ab%9f%e7%88%b1%e8%b0%81%ef%bc%9f/#comment-7315">
            R语千寻第三期：张无忌究竟爱谁？
           </a>
           》
          </li>
          <li class="recentcomments">
           <span class="comment-author-link">
            J
           </span>
           发表在《
           <a href="http://cos.name/2016/05/value-of-the-reputation-from-the-data/#comment-7314">
            数据告诉你：高信誉的卖家应该收高价，还是收低价？
           </a>
           》
          </li>
          <li class="recentcomments">
           <span class="comment-author-link">
            <a class="url" href="http://gg" rel="external nofollow">
             Hilda
            </a>
           </span>
           发表在《
           <a href="http://cos.name/2013/01/drawing-map-in-r-era/#comment-7311">
            R时代，你要怎样画地图？
           </a>
           》
          </li>
         </ul>
        </aside>
        <aside class="widget widget_rss" id="rss-282869971">
         <h3 class="widget-title">
          <a class="rsswidget" href="http://cos.name/cn/topics/feed/">
           <img src="http://cos.name/wp-includes/images/rss.png"/>
          </a>
          <a class="rsswidget" href="http://cos.name/cn/topics/feed/">
           中文论坛新帖
          </a>
         </h3>
         <ul>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/417372/">
            处理时间数据和产生时间序列的问题
           </a>
          </li>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/6790/">
            《统计陷阱》下载 （How to lie with statistics）
           </a>
          </li>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/818/">
            统计学的世界（第五版）
           </a>
          </li>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/16574/">
            class(x) 返回值值是AsIs,AsIs代表什么，有什么用处？
           </a>
          </li>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/417366/">
            如何用R绘制一个分类算法的决策规则
           </a>
          </li>
         </ul>
        </aside>
        <aside class="widget widget_text" id="text-2">
         <h3 class="widget-title">
          登录/RSS
         </h3>
         <div class="textwidget">
          <ul>
           <li>
            <a href="http://cos.name/wp-admin/">
             登录
            </a>
           </li>
           <li>
            <a href="http://cos.name/feed/" title="使用 RSS 2.0 同步站点内容">
             文章
             <abbr title="Really Simple Syndication">
              RSS
             </abbr>
            </a>
           </li>
           <li>
            <a href="http://cos.name/comments/feed/" title="RSS 上的最近评论">
             评论
             <abbr title="Really Simple Syndication">
              RSS
             </abbr>
            </a>
           </li>
          </ul>
         </div>
        </aside>
       </div>
       <!-- .widget-area -->
      </div>
      <!-- .sidebar-inner -->
     </div>
     <!-- #tertiary -->
    </div>
    <!-- #main -->
    <footer class="site-footer" id="colophon" role="contentinfo">
     <div class="site-info">
      版权所有 © 2014 统计之都 | 由
      <a href="http://wordpress.org/">
       WordPress
      </a>
      构建 | 主题修改自
      <a href="http://wordpress.org/themes/twentythirteen">
       Twenty Thirteen
      </a>
     </div>
     <!-- .site-info -->
    </footer>
    <!-- #colophon -->
   </div>
   <!-- #page -->
   <p style="margin:0;padding:0;height:1px;overflow:hidden;">
    <a href="http://www.wumii.com/widget/relatedItems" style="border:0;">
     <img src="http://static.wumii.cn/images/pixel.png"/>
    </a>
   </p>
  </div>
 </body>
</html>